APEX4: Inferencia eficiente de LLM con W4A4 puro mediante reequilibrio de cómputo intra-SM Descubre cómo APEX4 optimiza la inferencia de LLMs con cuantización W4A4 pura, logrando hasta 2.09x de aceleración en GPUs como RTX 3090 y A40. 2026-06-09 · 2 min